隐私计算工具的《个人信息保护法》评价(一)——差分隐私
在密码等个信保护技术的价值体现及《个人信息保护法》草案的十个猜测一文中,我们提到了个人信息和隐私科技的实践,建议在后续审议稿中增加对这些科技的规范条款,例如“鼓励保护个人信息技术的开发与开放”,并对去标识化、匿名化等技术用语进行法律属性的约束。
接下来几期,我们就讨论一下主要的隐私计算技术和工具(考虑到《民法典》《网络安全法》等对隐私、个人信息有明确规定,就行业实践中存在隐私计算工具实为包括个人信息在内的情况也进行了说明,但为方便行文和符合通用表述,不再每处进行区分,同时省略部分脚注)的《个人信息保护法》问题。
由于写就仓促,对技术、法律的误解之处也请读者指正。
《个人信息保护法》(草案)对自动化工具的规定
与隐私计算工具、技术相关的条款主要体现在《个人信息保护法》的三个条款:
1、第25条规定,利用个人信息进行自动化决策,应当保证决策的透明度和处理结果的公平合理……这里的自动化决策,按照《个人信息保护法》(草案)明确为指利用个人信息对个人的行为习惯、兴趣爱好或者经济、健康、信用状况等,通过计算机程序自动分析、评估并进行决策的活动。该定义与本期讨论的差分隐私看似相反,但实际上是信息处理的不同阶段、步骤,且目的均指向通过决策向个人进行推荐等活动。因此可以认为差分隐私构成自动化决策数据商业活动的一种技术支持。
2、第50条规定,个人信息处理者应当……采取相应的加密、去标识化等安全技术措施;本期中,这里的主要问题是讨论差分隐私和加密、去标识化之间的区别与联系。
3、第54条规定,个人信息处理者应当对下列个人信息处理活动在事前进行风险评估……我们理解这里的风险评估主要和侧重是技术评估。在本期列举的若干案例中,正是由于事前风险评估的不足,导致个人信息泄露或滥用的风险。因此,(1)如何利用差分隐私等工具作为保护个人信息的安全技术措施部署和进行风险评估;(2)或者对差分分析等自动化工具进行是否影响个人信息安全的风险评估,也是风险评估的重要内容。
自动化工具如何影响隐私和个人信息保护立法
1、自动化工具对个人信息保护和利用的平衡
对于这个问题,其实我们只需要理解一个出场顺序。从更宽泛的理解上,在近20年里我们假定:
(1)已有隐私立法(更早的鸡蛋问题暂时不追究了);
(2)自动化工具随之出现用以规避(合规),例如解决 AOL 的搜索引擎记录集问题和 Netflix 的影评记录集问题(这些案例中,个人信息处理者通过某些去标识化技术,符合了既有隐私立法和监管要求,但仍导致了数据泄露)——以本文所指差分隐私为例,公认的差分隐私概念化论述是2006年微软C·Dwork等的“Calibrating Noise to Sensitivity in Private Data Analysis”——满足了既有法律的隐私要求,但继续接受攻击者和应用场景局限的挑战;
(3)个人信息保护立法持续出台,约束了既有自动化工具的应用同时,涵盖了更多隐私场景和扩大了适用范围(例如GDPR和《网络安全法》等之下对个人数据控制者、网络运营者的广泛讨论);
(4)自动化工具随之“进化”。
因此自动化工具实际上是作为法律条款的“落地”机制而出现,其一方面解决之前的隐私或个人信息保护法律要求的合规问题,另一方面则引入了新的个人信息安全问题。例如本文所涉及的差分隐私(Differential Privacy)实际上存在两个合法性评价的前提,一个是隐私计算工具是否可以“无条件的”计算个人信息——“计算”是否属于对个人信息的处理(本文例证中企业部署本地化差分隐私即是出于此考虑),二是这里的“去标识化”个人信息是否是《个人信息保护法》(草案)第4条规定的个人信息处理。显然,如果两个前提都符合,则需征得个人的事先同意)。我们可以认为,自动化工具实际上在不断的“重塑”隐私和个人信息保护立法——这也是为什么我们认为自动化工具于《个人信息保护法》立法进程至关重要的缘由。
2、当前版本的个人信息保护立法没有充分反映自动化工具的规范,导致立法目的“初心”偏差
我们在之前讨论中认为,个人信息保护法产生于内有《网络安全法》《民法典》,外有GDPR、CCPA等立法的“隙缝”之际,一方面需要稳重、笃定,另一方面还要亮点彰显,确实难为立法者。但有隙缝就有光,对自动化工具的突破性规制可能也可以成为个人信息保护法不同于GDPR的协议化制约、CCPA的交易化制约的显著特点——即技术性立法本应有的立法规则。如何规制,则应以对相关技术、市场和企业的调查为起点。
差分隐私如何量化隐私的法律概念
1、差分隐私的技术定义
按照公开信息笼统的认为,差分隐私是通过统计学的方法,最大化的在提供对包括个人信息的数据库查询响应准确性的同时,最小化的减少识别数据集中个人信息的可能性。通过差分隐私机制,可以防止用户(例如:攻击者)识别数据库中是否包含特定个人(个人信息)。而一个信息论上的标准差分隐私定义是这样的:知道数据(集)中的一点内容(变化),整个数据(集)的信息熵(不确定性)几乎没有改变。
按照宾州大学Aaron·Roth的观点:差分隐私保护的是,用户(例如:苹果)可以从大型数据集中获得一些深刻见解,同时确保任何人都不能从中获取特定的个人信息。
从差分隐私的定义看,其关键点包括:(1)其是基于统计学寻求的一种概率表达。因此,如果用户查询一个包括100个信息与查询一个包括99个信息的数据集,得到的结果非常之接近(一致,或者反向表述为用户无法区别两个数据集的输出),则意味着用户无法识别(多出来的这个1的)个人信息;(2)其设计用以对抗的是“差分攻击”。这就意味着需要两个以上的数据集,一个数据集是另一个数据集的增量或变化,且这些数据集具有类似的统计属性(“场景”,例如广泛讨论的苹果Emoji 表情包推荐场景),通过应用随机算法加入随机性(“噪声”或“扰动”,可能显示为数据集中的新条目)影响查询结果。而随着查询次数的增加,还需要设定一个“隐私预算”,进一步对抗用户寻求的查询差分(同时也意味着对隐私预算的消耗);(3)差分隐私是“着眼整体保护个人”的技术。保护本质上是《个人信息保护法》上的去标识化技术(注意我们不应将技术理解上的“反匿名化”等同于《个人信息保护法》意义上的反“匿名化”,理由见后),是一种在整体数据可用性与个体信息保护之间寻求平衡的有益尝试,也是《网络安全法》上网络数据保密性与可用性同时实现的努力探索。
2、为什么对隐私的技术化(量化)是一种必要
(1)隐私和个人信息法律定义本身的模糊性,使得通过统计学的概率表达实现隐私或个人信息的个案(“场景”)可评价性成为可能;
(2)绝对隐私量化定义的失败,推动了概率表达隐私。1977 年统计学家 Tore·Dalenius提出了一个严格的数据隐私定义:攻击者在使用敏感数据集之前,对他们不认识的人应该一无所知。但Dwork在2006年认为,任何对敏感数据的访问都将意味着违反这一隐私定义。因为在数据集的使用中,所有类型的背景信息都可能导致关于个人的“新”结论。而所有早期证明有效的反匿名化(如本文所述,指反“去标识化”或《个人信息去标识化指南》标准(GB/T 37964-2019)中的“重标识”)机制都并不成功。
进而言之,隐私和个人信息是相对而非绝对的,是可比较的而非“无与伦比”的。而统计学作为近20年以来人工智能领域的主流,“接管”自动化工具和影响政策立法也顺应了这一趋势;
(3)差分隐私寻求的隐私可定义性
差异隐私的关键特征是,它不将隐私定义为“是否公开了个人数据”的二元概念,而是一个累积风险的问题。也就是说,随着处理某一个人的数据增加,其个人信息暴露的风险就会增加。为此,差异隐私相继配备了参数(“epsilon(ε)和delta(δ)”),这些参数可量化“隐私损失”,也即由于使用(差分隐私中的“查询”)数据而给个人带来的额外信息泄露风险。无论在 “重标识”或去匿名化识别攻击中使用任何辅助知识,由差分隐私约束的个人隐私风险将永远受限于这种隐私损失的设定。
因此,尽管差分隐私并不是一种最好的、通用的隐私量化定义,但确是较优和可适用于特定场景的可用定义,差分隐私的“隐私”定义能够提供一种“合理解释”,以符合并可验证的实现监管机构个人信息保护条款要求。
将差分隐私和算法转化为法律术语
前面我们已经提到,统计学的抽象和法学的归纳使得两者的转化成为可能,并认为隐私和个人信息的法律定义(定性)有必要进行必要的技术转化(定量)。同样,我们也需要将差分隐私、(例如Laplace、Gauss分布)算法实现等进行法律评价。
1、差分隐私是否属于加密
先写结论,差分隐私本身不属于加密技术。苹果在2016年“隆重”推出其自有的差分隐私方案,但从其表述中我们也可看出,苹果的方案是包括利用哈希(hashing)、分段抽样(subsampling)和噪声注入(noise injection)等方式综合实现。严格的《密码法》定义下,哈希属于加密,但噪声本身不属于加密。
这主要是因为,是否确定为加密,取决于随机化后密文的分布。对于加密而言,加密后的明文应(尽可能、随机化)均匀的分布于密文空间;而Laplace、Gauss分布随机化后的结果非均匀分布,也不可能是均匀分布,否则可用性就丧失了。从可逆性上看,加解密可互逆实现数据的破坏与恢复,但差分隐私必须保证随机化之后结果的可用性(还是在苹果Emoji 表情包推荐场景中,将呈现根据用户表情包使用频次计算出的动态表情包排序)。这从宾州大学A·Smith的电台比喻中也能得到印证:差分隐私就好比在一层静态噪声之下,听到(电台频道)背后的旋律……你了解不到什么个人信息,但可以看到比较清晰的整体规律。在这个比喻中,噪声和旋律并没有混合。
(显示了经差分隐私“计算”用户偏好后的Emoji的重新排序)
因此,差分隐私不属于《个人信息保护法》(草案)第50条规定的加密安全技术措施。但属于该条规定的去标识化措施。
2、差分隐私是否属于去标识化
《个人信息保护法》定义去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。在差分隐私中,对个人信息的处理(这里的处理,似乎应不同于该法第4条定义的“个人信息的处理”—— 包括个人信息的收集、存储、使用、加工、传输、提供、公开等活动,理由见下),是通过以下两个步骤符合去标识化定义:
(1)对包括个人信息在内的整个数据集加入噪声,这一活动本质上属于保护个人信息的安全技术措施,而非对个人信息的基于保护目的之外的其他处理目的——即,如果对个人信息的处理是“专门”用于保护该个人信息,则该处理活动不应视为是《个人信息保护法》第4条规定的个人信息处理活动,否则,差分隐私和其他所有的自动化工具,都必须前置性的符合该法第6条、第7条等所要求的明确合理目的、最小化和公开透明原则,并取得“知情同意”。
当然,在实践中差分隐私的工程化实现不仅是作为一种安全技术措施,也是一种数据分析技术和程序化实现。这就为差分隐私是否需要进行个人信息处理的前置风险评估等动作增加了不确定性;
(2)对包括个人信息在内的经过差分隐私的数据集,即使进行了数据聚合(例如苹果将本地化差分隐私LDP的数据上传),仅通过查询和差分分析,无法识别特定自然人,从而实现对抗“链路攻击”等差分分析方法。要对其中的个人信息进行识别,需要借助于额外的辅助数据或技术,例如引入其他标识的数据集进行“推导”,或在如Laplace分布的差分隐私实现上,调整ε值来实现查询结果的精确化(例如较大的ε值将可能导致隐私泄露)。
3、去标识化与匿名化
《个人信息保护法》(草案)将匿名化定义为“指个人信息经过处理无法识别特定自然人且不能复原的过程”,其与去标识化的差别在两个方面:(1)是否借助于额外信息;(2)无论是否借助于额外信息,都不能复原的得出个人信息。因此这一概念是绝对,甚至是理想化的。从我们对差分隐私的理解看,显然其无法满足匿名化的法律定义的要求。在这一点上,苹果在其隐私政策中的表述无疑是准确的(但我们无法确认苹果是否也是这样理解,并工程上实现):……被采集时,个人数据或是根本不会被录入,或是在发送给 Apple 之前已从报告中删除,或是采用差分隐私这类技术加以保护。即,只有“不存在”、“被删除”两种情况属于匿名化,其他的仅为保护技术。但在法律上绝对的匿名化并不存在,就像差分隐私中,ε值不能等于0一样。
因此尽管《个人信息去标识化指南》已经明确的将差分隐私纳入去标识化技术进行讨论,但这里对本条的增加赘述,是考虑到实务中部分初创企业将去标识化与匿名化等同,或将差分隐私确定为一种匿名化技术,从而“无条件的”直接使用差分隐私技术进行隐私计算,而未对其是否需进行《个人信息保护法》(草案)下的个人信息风险评估作出前置判断,并最终引入合规风险。
可能读者也有疑问,既然匿名化并不真正存在,为何个人信息保护利法应对其进行定义?这就是一个法律个案评价的问题:对于某一技术某一次应用的法律效果,是否达到了隐私或个人信息并未泄露、滥用等法律后果,司法实务可以进行明确、无异议的判定,一旦判定无构成违法后果,则可以认为在个案中就实现了个人信息匿名:不可复原的未被识别的效果。
差分隐私适用于哪些场景和如何促进个人信息保护
1、苹果
苹果在2016年的WWDC2016会议上宣布在iOS10上实现了差分隐私技术,用于快速键入(QuickType)提示、Emoji表情包提示、查找提示、Safari 能量消耗域、自动内容填充检测,后又增加了在健康类型使用和Safari崩溃域应用差分隐私,以改善和提升针对特定应用的能力和体验。综合运用了ε-本地化差分隐私(ε-LDP)、hashing、TLS加密传输等,以及苹果特别推崇的随机标识符等等。此外增加考虑了时间因素,因此上传数据存储期限不超过3个月。对于不同的应用场景,分别配置了不同的噪声级别和赋值了不同的隐私预算,例如健康类型为2、Emoij为4、QuickType为8等等。显然苹果允许QuickType消耗更多的隐私预算,而健康类型的设置则因数据更为敏感而取值保守,但这些配置的实践与理论研究的取值仍有极大出入。
2、谷歌
据称苹果得到灵感的谷歌RAPPOR项目开始于2014年,通过在Chrome浏览器 中使用差分隐私随机应答(randomized response)算法,可以从Chrome 收集行为统计数据。RAPPOR系统显示,其发送到谷歌的任何特定数据的ε为2,并且在用户的相应使用生命周期内的上限为8或9。该项目后在GitHub开源。
3、国内
国内大概也在2015年左右开始,也有一些头部企业和初创公司开展差分隐私方面的工作。由于差分隐私本身技术的局限性,往往会置入或结合其他的技术,包括多方计算、联邦学习、TEE,以及区块链等应用。随着包括差分隐私在内的综合应用从网络应用到金融、医疗等行业的渐进,也说明确实有应用价值。
整体上,差分隐私回应了对隐私保护的某些关切,并在背景信息的依赖性上强于早期的隐私保证K-anonymity、l-diversity方法——即具有攻击者背景知识无关性的优势,攻击者拥有的背景知识和计算能力不会影响隐私保护程度,即使攻击者获得数据集中除某条记录外的所有记录,仍然无法得知这条数据是否存在于数据集中。这些都使得差分隐私成为一种“个性鲜明”的去标识化个人信息保护技术。
局限性
1、可以缓解但不能解决多个关联数据集上传后的隐私“推导”泄露问题
从苹果和谷歌的差分隐私实践看,其基本上都是先在本地进行差分隐私(LDP)的本地模式,再通过随机抽样(或随机应答)、加入噪声等后加密上传,因此在涉及同一数据集(及其变化)时可以解决隐私泄露问题,但如果上传多个数据集且存在某些关联时,可能仍然会经推导而泄露隐私。
2、ε -Differential Privacy和(ε, δ) -Differential Privacy,差分隐私仍在不断引入新参数
如前所述,ε -Differential Privacy本身对工程实现提出了很高要求,如果加入的噪声太多,则可能与原始的数据集差异过大,导致可用性的下降甚至丧失。而如果加入的噪声过少,则可能泄露个人信息。
由于ε -Differential Privacy适用的局限性,特别是近年来为了提升人工智能机器学习效率,上述的ε -Differential Privacy增加了额外的变量δ,用以容忍δ概率的隐私泄露,从而能够更好的满足人工智能的数据需求,但同时这就意味着个人信息不能满足“知情同意”和“最小化”等进行访问的原则,默认了一定程度的个人信息泄露或误用。
如何确认变量δ的取值范围,从法律的角度,可以考虑GDPR第33条等或者《个人信息保护法》(草案)第55条的通知义务。例如后者规定,当发生个人信息泄露但能够避免信息泄露或损害的,可以不通知个人。如果企业能够判断不需通知的情形(本文不再考虑GDPR与《个人信息保护法》(草案)区别),则可以估算出容许泄露但不会触发通知义务的个人信息的比例。实际上这一比例也有据可循:按照2018年英国ICO披露,考虑到GDPR的严苛,企业就信息泄露事件疲于报告,每周的报告次数约为500次,但实际上有三分之一实际上未达到需要报告的程度。当然实践中不会直接按照阈值的下限设定δ,这同样体现了历史统计数据的力量。
3、可计算性和算法黑箱问题
从上述算法和企业实践中可以看出,(1)差分隐私从理论到实践有一个可计算性实现的过程,目前这个过程仍在尝试渐进;(2)差分隐私对个人信息保护与数据利用的平衡,部分取决于隐私预算这一参数的自行设定,和δ概率容忍度的主观评价,这就导致了对算法及其实现的透明度质疑。包括苹果和早期初创企业对差分隐私实现过程的封闭,加剧了对企业是否严格遵照差分隐私保护个人信息的焦虑,而从更广泛的合规度量上,差分隐私也需要接受《个人信息保护法》(草案)“自动化决策”透明度原则(第25条)的拷问。
4、数据集的限制与为何大企业青睐
差分隐私的实践显示出在较大的数据库上更好的保护和利用效果。这部分是因为随着数据库中个人信息数量的增加,任何单一个人对给定的汇总统计信息的影响都会减小。差分隐私的这一特性显然对大企业有利,因此在头部企业中尝试差分隐私并不稀奇(如果考虑差分隐私对算力的高消耗则更甚);而对于中小初创企业而言,缺少数据集对优化和创新差分隐私算法不利,但如果需要获得较大的数据库,则本身就意味着需要从上下游获取数据,现有趋紧的监管环境限制了对数据的获取,导致初创企业难以技术突破,而大企业则因早期数据囤积、缺少竞争而无改进差分隐私的意愿——事实上最近几年似乎也进入了一个瓶颈期——这又构成一个数据垄断上的法律问题。
结论与展望
差分隐私作为量化隐私和解决链路攻击等情形下导致的个人信息泄露方面具有其场景优势,而通过hashing和分段抽样、随机应答等方式,考虑到了最小化数据收集和上传的因素,起到“弱水三千”的效果,而在工程实现中增加了哈希、TLS等密码技术,显示出各类个人信息保护技术相互协同和促进个人信息保护的努力。
《个人信息保护法》(草案)也应激励这类自动化工具的开发与开放,以实现:(1)通过自动化工具保护个人信息;(2)对自动化工具的符合性进行评估与评价的效能。最终,通过个人信息保护与利用的动态平衡,推动包括个人信息在内的数据市场的良性发展。
原浩浩,江苏竹辉律师事务所合伙人律师
黄道丽,公安部第三研究所研究员
密码等个信保护技术的价值体现及《个人信息保护法》草案的十个猜测
封面图源网络
图文编辑:公安部第三研究所 梁思雨